Nous sommes arrivés à la fin de notre projet et dans cette page nous présentons les démarches que nous avons faites pour aboutir ce projet.

Étape 1 : Création du blog

Avant de commencer le projet, nous avons créé un blog dans lequel nous mettons tous nos démarches et nos travaux de chaque séances.

Ici vous trouverez les détails de démarches que nous avons utilisé pour aboutir ce projet.

Étape 2 : Sélection des URLS

A la base, nous travaillons sur un corpus d'URLS contenant notre mot clé « vie » dans toutes les langues que nous avons choisies pour ce projet. Le mot « vie » peut renvoyer à plusieurs mots dans une autre langue. Mais ici nous allons nous limiter qu’à un seul mot équivalent.

Nous choisissons cinquante URLS pour chaque langue : français, thaï, wolof, tibétain et anglais. Cela nous fait 250 URLS en total. Il est nécessaire de souligner qu’il ne faut pas avoir ni de doublons ni d’URLS qui renvoient à des fichiers en format PDF ou Word.

Étape 3 : Aspiration des pages

Notre objectif est de faire un tableau à trois colonnes comprenant : la numérotation des URLS, les URLS et la page aspirée des URLS Comment nous avons procéder ?

Tout d'abord nous allons numéroter nos URLS. Vu le nombre de nos URLS nous les numérotons à l'aide d'un script. Ensuite nous allons conserver le contenu des URL. Pour l'aspiration des pages, nous avons deux fonctions à notre disposition : « wget-O » ou « curl-o3.

Ensuite avant de continuer il faut vérifier si nos pages ont le bon encodage et si la page HTML créée dans notre fichier fonctionne ou pas

Étape 4 : Dumps

Dans cette étape, avec nos pages aspirées, à l'aide de le fonction « lynx » en bash, nous allons créer un DUMP, c'est-à-dire un fichier qui ne contient que le texte de notre page. Pour exploiter ces DUMPs correctement, il faut s'assurer qu’on a bien choisi l'encodage qu’il faut pour ces pages.

Ainsi nous avons porté notre choix sur l'UTF-8. Si nos pages sont déjà encodées en UTF-8, la chance ! Sinon il faut les convertir en UTF-8.

Étape 5 : Contextes

Garder tous nos dumps ne nous intéresse pas. On veut plutôt faire apparaitre les contextes dans lesquels apparaissent nos mots. Pour le faire, nous allons garder deux lignes au-dessus et deux lignes en dessous de « vie ».

Ici on ajoute une colonne supplémentaire à notre tableau.

Étape 6 : Nombres d'occurences

Pour afficher le nombre d'occurrences de notre motif dans les fichiers dump utf8.

Étape 7 : Concaténation en fichier globaux

Pour analyser nos langues, au lieu d'avoir besoin de prendre chaque dump en contexte une à la fois pour analyser, nous allons concaténer les dumps. Cela nous donne une cellule à la toute fin de la colonne correspondante.